📦 Новые возможности для ML
На конференции Data&ML2Business представили обновления Yandex Cloud AI Studio: теперь можно дообучать эмбеддинги, работать с PDF и таблицами, использовать рефразер для уточнения запросов и использовать модели через совместимый с OpenAI API.
Все эти возможности требуют надёжной инфраструктуры для хранения и обработки данных — и здесь в игру вступает YTsaurus. Это платформа для хранения и обработки эксабайтных данных, которую Яндекс изначально разрабатывал для внутренних задач. Теперь она доступна бизнесу как управляемый сервис в Yandex Cloud, с поддержкой как облачного, так и on-premise развертывания.
🛠 Что внутри:
• Распределённая файловая система + MapReduce
• Интеграция с Yandex Managed Spark
• Поддержка SQL-запросов, потоковой обработки и ML-задач
• Техническая поддержка развёртывания под enterprise
Также вышел редактор для кастомизации визуализаций в DataLens (на JS) и витрина готовых дашбордов - удобно для внутренних BI-решений.
🤖 Хабр
@machinelearning_interview
На конференции Data&ML2Business представили обновления Yandex Cloud AI Studio: теперь можно дообучать эмбеддинги, работать с PDF и таблицами, использовать рефразер для уточнения запросов и использовать модели через совместимый с OpenAI API.
Все эти возможности требуют надёжной инфраструктуры для хранения и обработки данных — и здесь в игру вступает YTsaurus. Это платформа для хранения и обработки эксабайтных данных, которую Яндекс изначально разрабатывал для внутренних задач. Теперь она доступна бизнесу как управляемый сервис в Yandex Cloud, с поддержкой как облачного, так и on-premise развертывания.
🛠 Что внутри:
• Распределённая файловая система + MapReduce
• Интеграция с Yandex Managed Spark
• Поддержка SQL-запросов, потоковой обработки и ML-задач
• Техническая поддержка развёртывания под enterprise
Также вышел редактор для кастомизации визуализаций в DataLens (на JS) и витрина готовых дашбордов - удобно для внутренних BI-решений.
🤖 Хабр
@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 EPiC
Метод эффективного обучения управления камерой с использованием точного сопоставления видео и опорных точек.
▪ Github
Метод эффективного обучения управления камерой с использованием точного сопоставления видео и опорных точек.
▪ Github
Прокачай навыки общения с ИИ с мощной базой знаний от экспертов Anthropic — всё, что нужно для уверенного промпт-инжиниринга и уменьшения ошибок при работе с нейросетями.
🔍 Что внутри:
• Подробный разбор структуры промптов: от скелета до ключевых формулировок
• Частые ошибки при взаимодействии с ИИ — и как их избежать
• Реальные кейсы на основе Claude
• Примеры качественных запросов + десятки готовых промптов
• Всё это — абсолютно БЕСПЛАТНО
⚡ Начни понимать ИИ не просто лучше — мастерски:
Github
🔍 Что внутри:
• Подробный разбор структуры промптов: от скелета до ключевых формулировок
• Частые ошибки при взаимодействии с ИИ — и как их избежать
• Реальные кейсы на основе Claude
• Примеры качественных запросов + десятки готовых промптов
• Всё это — абсолютно БЕСПЛАТНО
⚡ Начни понимать ИИ не просто лучше — мастерски:
Github
Forwarded from Machinelearning
Те, кто работает с синтезом речи, знают, что авторегрессионные трансформерные модели, хоть и хороши для генерации речи из текста с нуля, но создают кучу проблем, когда нужно редактирование. Стандартные методы, в виде полной перегенерации предложения, обходятся дорого по ресурсам и часто приводят к изменению интонации или ритма.
Замена отдельного слова обычно оставляет неприятные «склейки» на границах, а перегенерация с середины фразы может испортить уже существующую часть. Все это бьет по естественности и связности звучания.
PlayAI выпустила PlayDiffusion 1.0 – диффузионную модель для редактирования речи, которая умеет изменять нужные участки аудио, сохраняя при этом общую гладкость и характеристики голоса. Причем модель пригодна как для реальной речи, так и для аудио, сгенерированного другими TTS-моделями.
В PlayDiffusion аудиопоток кодируется в дискретное пространство, превращаясь в более компактную последовательность токенов. Затем, тот сегмент, который требует модификации маскируется.
После этого задействуется сама диффузионная модель. Она, опираясь на обновленный текстовый контент, «восстанавливает» замаскированную область, убирая шум. На выходе последовательность токенов снова преобразуется в полноценный звук с помощью декодера BigVGAN.
Чтобы добиться таких результатов, PlayAI взяли за основу текстовую трансформерную архитектуру и внесли несколько ключевых модификаций:
Интересно, что если замаскировать вообще всю аудиодорожку, PlayDiffusion может работать как TTS. В отличие от авторегрессионных моделей, которые генерируют каждый токен последовательно, опираясь на предыдущие, диффузионные модели генерят все токены одновременно, а затем уточняют их за фиксированное число шагов.
Например, для генерации 20 секунд аудио кодеком на 50 Гц авторегрессионной модели потребуется 1000 шагов. PlayDiffusion же способен выдать все 1000 токенов сразу и уточнить их всего за 20 итераций – это до 50 раз эффективнее по количеству шагов генерации.
@ai_machinelearning_big_data
#AI #ML #TTS #Inpainting #PlayDiffusion #PlayAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Видение идеального ИИ от Сэма Альтмана (OpenAI):
> "Крошечная модель с сверхчеловеческим мышлением, контекстом на 1 триллион токенов и доступом ко всем возможным инструментам."
Звучит как научная фантастика? Возможно.
Но это именно то, к чему стремится OpenAI.
🤔 Интересно — не об этом ли «крошечном сверхразумном» ИИ пойдёт речь в загадочном устройстве от OpenAI, над которым команда работает последние месяцы?
📱 Миниатюрная железка, подключённая к облаку, которая не просто отвечает, а понимает, планирует и действует.
А сегодня o3-pro уже начинает появляться у некоторых пользователей.
Похоже, запуск пошёл — держитесь крепче.
Сегодня тот самый день.
@machinelearning_interview - мл карьера
> "Крошечная модель с сверхчеловеческим мышлением, контекстом на 1 триллион токенов и доступом ко всем возможным инструментам."
Звучит как научная фантастика? Возможно.
Но это именно то, к чему стремится OpenAI.
🤔 Интересно — не об этом ли «крошечном сверхразумном» ИИ пойдёт речь в загадочном устройстве от OpenAI, над которым команда работает последние месяцы?
📱 Миниатюрная железка, подключённая к облаку, которая не просто отвечает, а понимает, планирует и действует.
А сегодня o3-pro уже начинает появляться у некоторых пользователей.
Похоже, запуск пошёл — держитесь крепче.
Сегодня тот самый день.
@machinelearning_interview - мл карьера
Forwarded from Machinelearning
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡 Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡 GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡 Modelscope: https://modelscope.cn/organization/qwen
@ai_machinelearning_big_data
#qwen
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
@ai_machinelearning_big_data
#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.
Проект включает в себя все необходимое: и фронтенд, и бэкенд.
Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.
Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.
Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.
⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.
@ai_machinelearning_big_data
#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно!
Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.
✅ Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций
💡 Бонус для разработчиков:
Добавь файл
Пользователи смогут запускать твой пример сразу, без копирования кода!
🔥 Работает с Google Colab — бесплатно, быстро, удобно.
#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning
✔️ Подробнее
@machinelearning_interview
Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.
✅ Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций
💡 Бонус для разработчиков:
Добавь файл
notebook.ipynb
в свой репозиторий модели — и Hugging Face автоматически подхватит его. Пользователи смогут запускать твой пример сразу, без копирования кода!
🔥 Работает с Google Colab — бесплатно, быстро, удобно.
#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 ShapeLLM-Omni — первая LLM, которая понимает форму, текст и 3D
ShapeLLM-Omni — это мультимодальная модель от JAMESYJL, способная обрабатывать не только текст и изображения, но и 3D-объекты, точки, сетки, CAD, и даже тактильные карты. Она объединяет визуальное, пространственное и языковое представление.
🚀 Что умеет:
• 🔤 Понимает текстовые запросы
• 📦 Анализирует 3D-модели, включая point clouds и mesh
• ✋ Поддерживает тактильные данные (touch maps)
• 🧰 Универсальный encoder для всех типов данных
• 🤖 Основана на сильной Vision+LLM архитектуре
• 🧩 Поддерживает задачи: классификация, QA, описание 3D-сцен
🧪 Пример использования:
Модель может ответить на вопрос:
"Какой это инструмент?" — анализируя 3D-модель объекта.
📦 Форматы входа:
• Point cloud
• Mesh (.obj)
• Voxel
• Text prompt
• Touch (tactile image)
🔬 Для чего подходит:
• Робототехника
• AR/VR
• 3D-дизайн и CAD
• Мультимодальные агенты
• Образование и техподдержка по 3D-объектам
🔗 GitHub: github.com/JAMESYJL/ShapeLLM-Omni
💡 ShapeLLM-Omni — это новый шаг к универсальным LLM, которые понимают форму, а не только текст и пиксели.
@machinelearning_interview
ShapeLLM-Omni — это мультимодальная модель от JAMESYJL, способная обрабатывать не только текст и изображения, но и 3D-объекты, точки, сетки, CAD, и даже тактильные карты. Она объединяет визуальное, пространственное и языковое представление.
🚀 Что умеет:
• 🔤 Понимает текстовые запросы
• 📦 Анализирует 3D-модели, включая point clouds и mesh
• ✋ Поддерживает тактильные данные (touch maps)
• 🧰 Универсальный encoder для всех типов данных
• 🤖 Основана на сильной Vision+LLM архитектуре
• 🧩 Поддерживает задачи: классификация, QA, описание 3D-сцен
🧪 Пример использования:
Модель может ответить на вопрос:
"Какой это инструмент?" — анализируя 3D-модель объекта.
📦 Форматы входа:
• Point cloud
• Mesh (.obj)
• Voxel
• Text prompt
• Touch (tactile image)
🔬 Для чего подходит:
• Робототехника
• AR/VR
• 3D-дизайн и CAD
• Мультимодальные агенты
• Образование и техподдержка по 3D-объектам
🔗 GitHub: github.com/JAMESYJL/ShapeLLM-Omni
💡 ShapeLLM-Omni — это новый шаг к универсальным LLM, которые понимают форму, а не только текст и пиксели.
@machinelearning_interview
Как правильно реализовать PPO? 37 деталей, которые почти никто не указывает
Полезное чтиво Исследователи из ICLR собрали 37 практических нюансов, без которых реализация Proximal Policy Optimization (PPO) часто оказывается нестабильной или неэффективной.
🔧 В статье разобраны:
• 13 базовых деталей — без них PPO просто не будет работать стабильно
• 9 дополнительных при работе с изображениями (например, Atari)
• 9 нюансов для задач с непрерывным действием (робототехника и физика)
• 6 универсальных оптимизаций, улучшающих сходимость и результат
💡 Примеры включают:
– обработку rewards перед обучением
– правильное использование GAE
– нормализацию входных данных
– трюки с масштабированием advantages
– обработку градиентов и dropout
📌 Почему это важно:
Эти детали влияют на производительность и стабильность PPO, но почти всегда остаются "между строк" в статьях и туториалах. Без них модель может "учиться", но не достигать ожидаемых результатов.
🔗 Оригинальный разбор + код: https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/
#ReinforcementLearning #PPO #RL #DeepLearning #ICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Ultimate Development Partner for Claude: Gemini MCP Server
🌟 Что это?
Это сервер Model Context Protocol (MCP), который соединяет Claude с Google Gemini 2.5 Pro, предоставляя:
▪ 1M токенов контекста — анализ целых репозиториев, сотен файлов.
▪ Глубокую экспертизу — проверка кода, архитектуры, поиск багов.
▪ Динамическую коллаборацию — Gemini запрашивает у Claude доп. контекст.
💡 Зачем это разработчикам?
Claude умён, но иногда нужен «старший разработчик» для:
Валидации идей (chat) → Второе мнение по архитектуре, технологиям.
Ревью кода (codereview) → Поиск уязвимостей, оптимизация.
Предкоммитной проверки (precommit) → Поиск edge-кейсов, соответствие ТЗ.
Сложного дебага (debug) → Анализ логов, root cause.
Глубокого анализа (analyze) → Исследование больших проектов
🚀 Преимущества
▪ Обход лимитов MCP — автоматическая обработка больших промптов как файлов.
▪ Умная работа с файлами — фильтрация, управление токенами.
▪ Интеграция с Docker — 5 минут на запуск.
🔗 Репозиторий: github.com/BeehiveInnovations/gemini-mcp-server
🌟 Что это?
Это сервер Model Context Protocol (MCP), который соединяет Claude с Google Gemini 2.5 Pro, предоставляя:
▪ 1M токенов контекста — анализ целых репозиториев, сотен файлов.
▪ Глубокую экспертизу — проверка кода, архитектуры, поиск багов.
▪ Динамическую коллаборацию — Gemini запрашивает у Claude доп. контекст.
💡 Зачем это разработчикам?
Claude умён, но иногда нужен «старший разработчик» для:
Валидации идей (chat) → Второе мнение по архитектуре, технологиям.
Ревью кода (codereview) → Поиск уязвимостей, оптимизация.
Предкоммитной проверки (precommit) → Поиск edge-кейсов, соответствие ТЗ.
Сложного дебага (debug) → Анализ логов, root cause.
Глубокого анализа (analyze) → Исследование больших проектов
🚀 Преимущества
▪ Обход лимитов MCP — автоматическая обработка больших промптов как файлов.
▪ Умная работа с файлами — фильтрация, управление токенами.
▪ Интеграция с Docker — 5 минут на запуск.
🔗 Репозиторий: github.com/BeehiveInnovations/gemini-mcp-server
🎙️ TensorFlowTTS — открытая библиотека для синтеза речи на TensorFlow 2, объединяющая современные архитектуры вроде Tacotron-2, FastSpeech2 и MelGAN. Проект позволяет не только экспериментировать с нейросетевым синтезом, но и развернуть готовое решение на мобильных устройствах благодаря поддержке TFLite.
Проект имеет унифицированный интерфейсе для разных моделей, что упрощает сравнение и комбинирование архитектур. Библиотека уже поддерживает несколько языков (английский, китайский, корейский, французский, немецкий) и предлагает инструменты для адаптации под новые языки.
🤖 GitHub
@machinelearning_interview
Проект имеет унифицированный интерфейсе для разных моделей, что упрощает сравнение и комбинирование архитектур. Библиотека уже поддерживает несколько языков (английский, китайский, корейский, французский, немецкий) и предлагает инструменты для адаптации под новые языки.
🤖 GitHub
@machinelearning_interview
📚 9 AI-гайдов от OpenAI, Google и Anthropic
🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!
1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf
2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf
4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf
5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents
6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion
8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders
9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering
Лучшие практики от лидеров индустрии.
🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!
1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf
2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf
4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf
5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents
6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion
8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders
9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering
Лучшие практики от лидеров индустрии.
🤖 Почему модели лучше отвечают на вопросы по тексту, чем по изображениям — и как это исправить?
Vision-Language модели (VLMs) сильно хуже справляются с вопросами про картинки (*«Сколько книг на изображении?»*), чем с теми же вопросами по тексту (*«Сколько книг в описании?»*). И нашли способ улучшить результат на +4.6%, закрыв треть разрыва между модальностями! Вот что они сделали 👇
🔬 Они разделили вход на три части:
• Данные (изображение или текст),
• Вопрос (*how many…*),
• Ответ (предсказание последнего слова).
🧠 Что нашли:
1️⃣ Мозги у модели разные для текста и картинок — цепочки внимания и нейроны почти не совпадают (всего ~18%). Особенно в частях, где обрабатываются данные и вопрос.
2️⃣ Часть, отвечающая за генерацию ответа, похожа — можно даже подменить её между модальностями, и модель почти не теряет в точности.
3️⃣ Часть, которая "смотрит" на данные — строго модальная. Визуальный поток информации идёт по другому пути, и замена разрушает результат.
4️⃣ Проблема в том, что изображение “становится понятным” слишком поздно. В поздних слоях визуальные данные уже похожи на текстовые — но модель не успевает этим воспользоваться.
💡 Решение: "перемотать" визуальные данные из поздних слоёв обратно в ранние (back-patching) — это помогает модели раньше "понять" картинку.
📈 Результат: +4.6% точности при ответах на вопросы по изображению — и треть разрыва с текстом закрыта!
🧩 Вывод: архитектура не виновата. Просто визуальные данные нужно правильно "подать" — и VLM начинает думать почти как человек.
🔜 Читать статью полностью
@machinelearning_interview
Vision-Language модели (VLMs) сильно хуже справляются с вопросами про картинки (*«Сколько книг на изображении?»*), чем с теми же вопросами по тексту (*«Сколько книг в описании?»*). И нашли способ улучшить результат на +4.6%, закрыв треть разрыва между модальностями! Вот что они сделали 👇
🔬 Они разделили вход на три части:
• Данные (изображение или текст),
• Вопрос (*how many…*),
• Ответ (предсказание последнего слова).
🧠 Что нашли:
1️⃣ Мозги у модели разные для текста и картинок — цепочки внимания и нейроны почти не совпадают (всего ~18%). Особенно в частях, где обрабатываются данные и вопрос.
2️⃣ Часть, отвечающая за генерацию ответа, похожа — можно даже подменить её между модальностями, и модель почти не теряет в точности.
3️⃣ Часть, которая "смотрит" на данные — строго модальная. Визуальный поток информации идёт по другому пути, и замена разрушает результат.
4️⃣ Проблема в том, что изображение “становится понятным” слишком поздно. В поздних слоях визуальные данные уже похожи на текстовые — но модель не успевает этим воспользоваться.
💡 Решение: "перемотать" визуальные данные из поздних слоёв обратно в ранние (back-patching) — это помогает модели раньше "понять" картинку.
📈 Результат: +4.6% точности при ответах на вопросы по изображению — и треть разрыва с текстом закрыта!
🧩 Вывод: архитектура не виновата. Просто визуальные данные нужно правильно "подать" — и VLM начинает думать почти как человек.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM